Marzo de 2019

EXPLORACIÓN DE DATOS

  • La exploración de los datos es una tarea previa que soporta cualquier tarea de mineria, ya sea de predicción, clasificación, agrupamiento, análisis de redes, etc.

  • Esta etapa generalmente se realiza como complemento del proceso limpieza del conjunto de datos.

Objetivos de la exploración de datos (1)

  • La exploración de los datos, previo a alguna tarea de mineria, tiene como objetivos principales:

  • Apoyar la tarea de preprocesamiento de los datos: valores perdidos, observaciones duplicadas, valores atípicos, etc.

  • Resumir las características generales de los datos: centralidad, dispersión, frecuencia, localización, forma, correlación, etc.

  • Encontrar tempranamente patrones en los datos: correlaciones, clusters, dependencias, etc.

Objetivos de la exploración de datos (2)

  • Derivar y seleccionar variables: variables a incluir en el entrenamiento, o a excluir por ser redundantes.

  • Generar hipótesis iniciales: ¿el por qué de un patrón descubierto?.

  • Decidir transformaciones para los datos: categorización, normalización, escalado, etc.

  • Decidir técnica de minado a utilizar para una tarea: De acuerdo a la estructura se puede escoger alguna técnica específica.

Medios para la exploración de datos

La exploración de datos se puede realiza a través de dos maneras: valores numéricos de resumen y visualización de datos.

  • valores numéricos de resumen: medias, medianas, modas, frecuencias, porcentajes, índices, valores mínimos y máximos, coeficientes, etc

  • Visualización de datos: representaciones gráficas (plots) que describen como se estructuran los datos.

¿Cómo se realiza la exploración?

La exploración de los datos puede hacerse:

  • De forma univariada: Se exploran las variables por separado.

  • De forma bivariada o trivariada: Se exploran las variables por parejas o ternas.

  • De forma multivariada: Se exploran las variables como un todo.

La exploración de los datos también puede realizarse de acuerdo al tipo de tarea: predicción supervisada, clasificación supervisada, agrupamiento no supervisado, reducción de datos, etc.

LOS DATOS

La tabla que se va a explorar describe un conjunto de \(1436\) automóviles de marca Toyota, medidos cada uno por \(10\) variables. Se define la variable precio como variable de respuesta.

data<-read.csv2("C:/Users/user/Dropbox/ElBosque2009-I/Asignaturas_2019_I/MineriaDeDatos/Compartido_DM_2019/datos/toyota.csv",header = T,sep = ";",dec=".")

head(data)
##   Price Age    KM FuelType HP Automatic Color   CC Doors Weight
## 1 13500  23 46986   Diesel 90        si  rojo 2000     3   1165
## 2 13750  23 72937   Diesel 90        si  rojo 2000     3   1165
## 3 13950  24 41711   Diesel 90        si  rojo 2000     3   1165
## 4 14950  26 48000   Diesel 90        no  rojo 2000     3   1165
## 5 13750  30 38500   Diesel 90        no  rojo 2000     3   1170
## 6 12950  32 61000   Diesel 90        no  rojo 2000     3   1170

EXPLORACIÓN UNIVARIADA DE DATOS

En R existen múltiples librerías que facilitan el proceso de exploración, por ejemplo, la librería DataExplorer. El comando introduce permite explorar la estructura de la tabla

library(DataExplorer)

introduce(data)
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1 1436      10                3                  7                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0          1436              14360        62232

EXPLORACIÓN UNIVARIADA DE DATOS

Un primer acercamiento a la tabla es realizar un resumen de las variables y de la estructura de la tabla:

##      Price            Age              KM           FuelType   
##  Min.   : 4350   Min.   : 1.00   Min.   :     1   CNG   :  17  
##  1st Qu.: 8450   1st Qu.:44.00   1st Qu.: 43000   Diesel: 155  
##  Median : 9900   Median :61.00   Median : 63390   Petrol:1264  
##  Mean   :10731   Mean   :55.95   Mean   : 68533                
##  3rd Qu.:11950   3rd Qu.:70.00   3rd Qu.: 87021                
##  Max.   :32500   Max.   :80.00   Max.   :243000                
##        HP        Automatic   Color            CC           Doors      
##  Min.   : 69.0   no:467    azul :  11   Min.   :1300   Min.   :2.000  
##  1st Qu.: 90.0   si:969    gris :  57   1st Qu.:1400   1st Qu.:3.000  
##  Median :110.0             negro:  36   Median :1600   Median :4.000  
##  Mean   :101.5             rojo :1083   Mean   :1567   Mean   :4.033  
##  3rd Qu.:110.0             verde: 249   3rd Qu.:1600   3rd Qu.:5.000  
##  Max.   :192.0                          Max.   :2000   Max.   :5.000  
##      Weight    
##  Min.   :1000  
##  1st Qu.:1040  
##  Median :1070  
##  Mean   :1072  
##  3rd Qu.:1085  
##  Max.   :1615

EXPLORACIÓN UNIVARIADA DE DATOS CUANTITATIVOS

Las medidas de resumen más usuales para un análisis exploratorio univariado de variables cuantitativas son: mínimo, cuartil 1, mediana, cuartil 3, máximo y desviación estándar (para medir variabilidad). Esta se pueden resumir en una sola tabla:

##         min    Q1    Mean  Median     Q3       sd
## Price  4350  8450  9900.0 11950.0  32500  3626.96
## Age       1    44    61.0    70.0     80    18.60
## KM        1 43000 63389.5 87041.5 243000 37506.45
## HP       69    90   110.0   110.0    192    14.98
## CC     1300  1400  1600.0  1600.0   2000   187.18
## Weight 1000  1040  1070.0  1085.0   1615    52.64

Exploración de datos cualitativos

Las medidas de resumen más usuales para un análisis exploratorio univariado de variables cualitativas son las frecuencias y porcentajes por clases dentro de cada variable:

Visualización de datos cuantitativos univariados: Histogramas

Visualización de datos cuantitativos univariados: Dot charts

Visualización de datos cuantitativos univariados: box plots

Visualización univariada de datos cualitativos: diagramas de barras

Exploración bivariada de datos

La exploración bivariada de datos se puede hacer realizando los siguientes cruces de variables:

  1. Variable cuantitativa \(\times\) variable cuantitativa
  2. Variable cuantitativa \(\times\) variable cualitativa
  3. Variable cualitativa \(\times\) variable cualitativa

Visualización bivariada de datos cuantitativos

La exploración por parejas de variables se centra en poder detectar relaciones entre dichas variables: lineales, cuadráticas, logaritmicas, etc. La relación más estudiada es la relación lineal. Esta se describe a través de los coeficientes de correlación de Pearson:

##         Price    Age     KM     HP     CC Weight
## Price   1.000 -0.877 -0.570  0.315  0.165  0.581
## Age    -0.877  1.000  0.506 -0.157 -0.133 -0.470
## KM     -0.570  0.506  1.000 -0.334  0.302 -0.029
## HP      0.315 -0.157 -0.334  1.000  0.051  0.090
## CC      0.165 -0.133  0.302  0.051  1.000  0.651
## Weight  0.581 -0.470 -0.029  0.090  0.651  1.000

Visualización bivariada de datos cuantitativos: correlogramas

Visualización bivariada de datos cuantitativos: Matriz de scatterplots

Visualización bivariada de datos cuantitativos: scatterplots

Visualización bivariada de datos cuantitativos: scatterplots

Visualización bivariada de datos cuantitativos: scatterplots con ruido

Visualización bivariada de datos cuantitativos: plot de densidad

Visualización bivariada de datos cuantitativos: plot de contornos

Exploración bivariada de datos cuantitativos x cualitativos

Se explora la distribución de la variable continua a través de las clases de la variable cualitativa. Por ejemplo: Price versus color del auto

##         Min      Q1   Med    Q3   Max     Mean Desv.st
## azul  19600 21225.0 21950 22250 23950 21690.91 1230.21
## gris   6500  9450.0 10950 13950 20950 12062.72 3955.48
## negro  4350  8472.5 10350 12950 17795 10332.78 3264.64
## rojo   4400  8750.0  9950 12100 32500 11076.53 3646.36
## verde  5600  7750.0  8500  9250 13750  8495.70 1309.31

Visualización bivariada de datos cuantitativos x cualitativos: box plots

Visualización bivariada de datos cuantitativos x cualitativos: Violin plots

Visualización bivariada de datos cuantitativos x cualitativos: Dot plots

Visualización bivariada de datos cuantitativos x cualitativos: Densidades

Visualización bivariada de datos cuantitativos x cualitativos: histograma categorizado

Exploración bivariada de datos cualitativos: Tablas de contigencia

##        azul gris negro rojo verde marR
## CNG       0    1     0   16     0   17
## Diesel    0    0    34  121     0  155
## Petrol   11   56     2  946   249 1264
## marC     11   57    36 1083   249 1436
##        azul gris negro rojo verde
## CNG     0.0  5.9   0.0 94.1   0.0
## Diesel  0.0  0.0  21.9 78.1   0.0
## Petrol  0.9  4.4   0.2 74.8  19.7
## marg    0.8  4.0   2.5 75.4  17.3
##        azul gris negro rojo verde marg
## CNG       0  1.8   0.0  1.5     0  1.2
## Diesel    0  0.0  94.4 11.2     0 10.8
## Petrol  100 98.2   5.6 87.3   100 88.0

Visualización bivariada de datos cualitativos: perfiles

Visualización bivariada de datos cualitativos: heatplot

Visualización bivariada de datos cualitativos: Barras apiladas

Visualización de tres variables: Scatter plot categorizado

Visualización de tres variables cuantitativas: Scatter plot 3D

Visualización de tres variables cuantitativas: Bubble plot

Visualización de variables cuantitativas por categorías: Scatter plot matrix

Visualización multivariada de datos cuantitativos: ACP

Visualización multivariada de datos cuantitativos: ACP con clases

Visualización multivariada de datos cualitativos: ACM